package com.sn.test;

import com.sn.pojo.News;
import com.sn.utils.PoolingHttpClient;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.util.ArrayList;
import java.util.Date;
import java.util.List;

public class NH_demo {
    public static void main(String[] args) {
        PoolingHttpClient httpClient = new PoolingHttpClient();
        String uri="http://xyw.njucm.edu.cn/2352/list.htm";
        //使用工具类获取client连接池,获取client对象来请求网页
        String content = httpClient.doGetHtml(uri);
        System.out.println("+++++++++++"+content);
        List<News> newsList=new ArrayList<>();
        //直接使用jsoup解析content
//        Document doc = Jsoup.parse(content);
//        //首先获取南城职大学新闻的分类
//        String category = doc.getElementsByClass("col_title").first().getElementsByTag("h2").text();
//        //经过分析 得知南城职大学的首页新闻是包裹 <ul class="news_list list2"> 里面的li标签集合中
//        //第一步先获取ul标签集合
//        Elements news_list = doc.getElementsByClass("news_list list2");
//        Element ul = news_list.first();
//        //第二步，解析ul里面的li标签集合
//        Elements lis = ul.getElementsByTag("li");
//        //第三步 解析Li标签
////      <span class="news_title"><a href='/2022/0225/c1669a43470/page.htm' target='_blank' title='我校开展新学期开学教学巡查工作'>我校开展新学期开学教学巡查工作</a></span>
////		<span class="news_meta">2022-03-01</span>
//        for (Element li : lis) {
//            Element a = li.getElementsByTag("a").first();//得到a标签
//            String title = a.text();//得到标题
//            String href = a.attr("href");//此时的href需要拼接
//            href="https://www.ncc.edu.cn"+href;//得到href
//
//            News news=new News();
//            news.setNHref(href);//设置标题
//            news.setNTitle(title);//设置标题
//            news.setSId(5);//设置学校id
//            news.setNGetTime(new Date());//设置爬取时间
//            news.setNCategory(category);//设置标题
//            newsList.add(news);
//        }
    }
}
